Smart Chinese Analysis插件将Lucene的Smart Chinese分析模块集成到Elasticsearch中,用于分析中文或中英文混合文本。 支持的分析器在大型训练语料库上使用基于隐马尔可夫(Markov)模型的概率知识来查找简体中文文本的最佳分词。 它使用的策略是首先将输入文本分解为句子,然后对句子进行切分以获得单词。 该插件提供了一个称为smartcn分析器的分析器,以及一个称为smartcn_tokenizer的标记器。 请注意,两者均不能使用任何参数进行配置。
要将smartcn Analysis插件安装在Elasticsearch Docker容器中,请使用以下屏幕截图中显示的命令。 然后,我们重新启动容器以使插件生效:
1 | ./bin/elasticsearch-plugin install analysis-smartcn |
在Elasticsearch的安装目录运行上面的命令。显示的结果如下:
1 | $ ./bin/elasticsearch-plugin install analysis-smartcn |
上面显示我们已经成功地把analysis-smartcn安装成功了。针对docker的安装,我们可以通过如下的命令来进入到docker里,再进行安装:
1 | $ docker exec -it es01 /bin/bash |
在这里es01是docker中的Elasticsearch实例。具体安装请参阅我的文章“Elastic:用Docker部署Elastic栈”。
注意:在我们安装好smartcn分析器后,我们必须重新启动Elasticsearch使它开始起作用。
实例
在下面,我们在Kibana中用一个实例来展示这个用法:
1 | POST _analyze |
显示结果:
1 | { |